Atlas 950到960:华为算力革命有多少惊喜?
当AI大模型训练还在为算力不足、周期过长发愁时,华为用两款超节点产品撕开了算力瓶颈的口子。2025年9月18日全联接大会上,Atlas 950与Atlas 960的发布不只是硬件上新,更靠灵衢互联协议实现了“万卡超节点,一台计算机”的突破,把传统AI算力集群的
当AI大模型训练还在为算力不足、周期过长发愁时,华为用两款超节点产品撕开了算力瓶颈的口子。2025年9月18日全联接大会上,Atlas 950与Atlas 960的发布不只是硬件上新,更靠灵衢互联协议实现了“万卡超节点,一台计算机”的突破,把传统AI算力集群的
如今,大模型的算力饥渴与“内存墙”困境日益尖锐。模型参数规模指数级增长从千亿到了万亿,大模型的“膨胀速度”堪称“失控”:从BERT的3.4亿参数到GPT-3的1750亿,再到如今超万亿参数的模型,每两年参数规模增长约240倍。但GPU显存的增长却像“蜗牛爬”—
第25家,华丰科技,公司是绵阳市国资委旗下,华为的高速背板连接器两大国内供应商之一,公司的连接器产品广泛适用于数据中心用高端服务器、交换机、超级计算机等领域。(逻辑是凭华为的实力,大概率能迅速跟上FP8技术)
FP8,其全称为 8-bit floating point(8 位浮点数),是一种超低精度的数据表示格式,相较于 FP32(单精度)或 FP16(半精度)等传统浮点格式,FP8 可以在尽量保持数值稳定性和模型精度的前提下,进一步降低存储和计算开销(参见机器之心
FP8,其全称为 8-bit floating point(8 位浮点数),是一种超低精度的数据表示格式,相较于 FP32(单精度)或 FP16(半精度)等传统浮点格式,FP8 可以在尽量保持数值稳定性和模型精度的前提下,进一步降低存储和计算开销。
DeepSeek 这次的重点不在模型 V3.1,而是在DeepSeek在其官宣发布DeepSeek-V3.1的文章中提到,DeepSeek-V3.1使用了UE8MO FP8 Scale的参数精度。另外,V3.1对分词器及chat template进行了较大调整
8月26日,芯片指数(884160.WI)探底回升,午盘涨0.02%,近一个月涨19.5%;AI算力指数(8841678.WI)热度延续,午盘涨1.45%,近一个月涨22.47%。
UE8M0 FP8 是一种用于深度学习训练和推理的浮点数格式,由 DeepSeek 在其 V3.1 模型中使用,旨在提升国产 AI 芯片的计算效率、降低功耗和成本,并推动国产 AI 生态发展。下面我用一个表格帮你梳理一下核心的概念股及其关联领域:
近日,新模型DeepSeek-V3.1对国产芯片的深度适配,不仅使得国产算力在市场影响力大大提升,国产芯片产业链也得到了广泛关注。
最近 AI 圈的 “DeepSeek V3.1” 带着 FP8 技术刷屏了,这技术能让 AI 算力更高效、芯片适配更丝滑。更关键的是,国内一大批公司都扎进了这条产业链,从芯片到服务器,从软件到通信,几乎覆盖 AI 核心环节。今天咱们用最白话的方式,把这些 “玩
产业链 fp8 强瑞 dcu deepseekfp8 2025-08-25 15:39 5
半导体ETF,同样也是在半天的时间里大涨5.89%。(不知道作为放出消息的DeepSeek背后公司幻方量化,有没有趁机炒一波)
事件:DeepSeek-V3.1正式上线,其凭借6850亿参数、128K上下文窗口及混合专家架构(MoE),在编程基准测试(中超越Claude 4 Opus,同时单任务成本低至1.01美元,仅为闭源模型的1/68。
应用 deepseek fp8 deepseek时刻 科学计 2025-08-23 01:15 6
随着深度学习模型(尤其是大规模生成模型)参数规模的扩张,对更高效的计算与存储方案的需求愈发强烈。降低数据类型位宽(精度)是一条行之有效的途径,但如何在降低位宽的同时保持准确度是一大挑战。
近日,摩尔线程正式发布Torch-MUSA v2.0.0版本,这是其面向PyTorch深度学习框架的MUSA扩展库的重要升级。新版本基于MUSA Compute Capability 3.1计算架构,支持原生FP8数据类型,支持PyTorch 2.5.0,并通